Veebisaidi indekseerimine

Eraldage automaatselt sisu oma veebisaidi lehtedelt

Alusta skannimist

Ülevaade

Veebisaidi roomaja avastab ja ekstraktib automaatselt sisu teie veebisaidi mitmelt lehelt. Selle asemel, et lisada lehti ukskaupa, saate roomata kogu oma saiti (voi konkreetseid jaotisi) ja lasta kogu sisu automaatselt oma tehisintellekti teadmistebaasi lisada.

Roomaja jargib linke lehtede avastamiseks, ekstraktib tekstisisu ja tootleb koike, et teie tehisintellekt saaks vastata kusimustele teie veebisaidi kohta.

Sisu automaatne rikastamine

Kui teie veebisait on ehitatud populaarsele platvormile nagu WordPress, Shopify, WooCommerce, Drupal, Squarespace või Strapi, tõmbab roomik automaatselt lisastruktureeritud sisu tavaliste lehtede kõrval — näiteks kogu tootekataloogi, ajaveebipostitused, kategooriad ja nimekirjad.

Midagi pole vaja seadistada. Kui teie veebisait on ehitatud toetatud platvormile, saab teie AI automaatselt rikkalikumaid ja paremini organiseeritud teadmisi.

Roomamisreizhiimid

Saate valida kahe roomamisrežiimi vahel vastavalt oma vajadustele:

Automaatne reizhiim

Roomaja alustab teie avalehelt ja avastab automaatselt lehti linkide jargimise teel. See kontrollib ka teie sitemap.xml-i, kui see on saadaval. Parim kogu veebisaidi voi selle suurte osade roomamiseks.

Koik plaanid

Manuaalne reizhiim

Maarate tapsed URL-id roomamiseks (komadega eraldatud). Roomaja kulastab ainult neid konkreetseid lehti. Parim, kui soovite teadmistebaasi lisada ainult teatud lehti.

Roomamispiirangud paketi järgi

Maksimaalne lehtede arv, mida saate roomata, sõltub teie paketist:

Pakett Maksimaalsed lehed Manuaalne reizhiim Parooliga kaitstud
Tasuta 50 lehte
Starter 250 lehte
Standard 1000 lehte
Pro 5000 lehte

Parooliga kaitstud lehed

Kas peate roomama sisselogimise taga olevaid lehti? Lubage valik \"Parooliga kaitstud lehed\", et roomata ainult liikmetele mõeldud sisu, juhtpaneele või mis tahes parooliga kaitstud alasid teie veebisaidil.

Kuidas kasutada

  1. Lubage roomamislehel lüliti \"Parooliga kaitstud lehed\"
  2. Sisestage oma sisselogimislehe URL (nt yoursite.com/login)
  3. Sisestage oma kasutajanimi/e-post ja parool
  4. Klõpsake Alusta roomamist - süsteem logib kõigepealt sisse, seejärel roomab kaitstud lehti

Kuidas see töötab

Kui lubate paroolikaitse, siis roomaja:

  1. Külastab teie sisselogimislehte ja tuvastab vormiväljad automaatselt
  2. Esitab teie volitusandmed (sealhulgas kõik CSRF-märgised)
  3. Hoiab autenditud seanssi roomamise ajal
  4. Algab sealt, kuhu teid pärast sisselogimist suunatakse (nt teie juhtpaneel)
  5. Avastab ja roomab kõik kaitstud lehed, mida leiab

Vihje: Roomaja tuvastab automaatselt vormiväljad (e-post, kasutajanimi, parool) ja turvatokenid, nii et see töötab enamiku sisselogimisvormidega ilma täiendava seadistamiseta.

Täiustatud: kohandatud väljanimed

Kui teie sisselogimisvorm kasutab mittestandardseid väljanimesid, laiendage jaotist \"Täpsemalt\" ja määrake:

  • Kasutajanime välja nimi - Vormivälja nimi kasutajanime/e-posti jaoks (nt user_email)
  • Parooli välja nimi - Vormivälja nimi parooli jaoks (nt user_pass)

Piirangud: Parooliga kaitstud roomamine töötab standardsete HTML-sisselogimisvormidega. See ei pruugi töötada:

  • JavaScripti-põhised sisselogimised (React, Vue, Angular üheleherakendused)
  • CAPTCHA või reCAPTCHA-ga kaitstud sisselogimised
  • Kaheastmeline autentimine (2FA)
  • OAuth sisselogimised (Google, Facebook jne)
  • Mitmeastmelised sisselogimisvood

Vihje: Selle asemel, et kasutada oma isiklikku kontot, kaaluge roomamiseks spetsiaalse konto loomist. See võimaldab teil täpselt kontrollida, millele roomaja ligi pääseb.

Parimad tavad

Enne roomamist

  • Veenduge, et teie veebisait on ligipääsetav ja lehed laadivad õigesti
  • Kontrollige, et olulised lehed on lingitud teie avalehelt või saidikaardilt
  • Parooliga kaitstud roomamiste puhul kontrollige, kas teie volitusandmed töötavad

Lehtede valimine

  • Alustage oma kõige olulisematest lehtedest - tootelehed, KKK-d, teenused
  • Kasutage käsirežiimi, kui vajate ainult kindlaid lehti
  • Vältige aegunud või ebatäpse teabega lehtede roomamist

Pärast roomamist

  • Vaadake roomatud sisu oma teadmusbaasis üle
  • Eemaldage kõik tabatud ebaolulised lehed
  • Testige oma tehisintellekti küsimustega roomatud sisu kohta
  • Roomake perioodiliselt sisu ajakohasena hoidmiseks

Märkus: Iga uus roomamine asendab eelmise selle veebisaidi jaoks. Teie tehisintellekt kasutab alati viimasena roomatud sisu.

Roomatud lehtede haldamine

Pärast roomamise lõpetamist saate üksikuid lehti eelvaadata ja hallata teadmusbaasi jaotises oma juhtpaneelil.

Lehe sisu eelvaade

  1. Minge oma juhtpaneelile ja avage jaotis Teadmusbaas
  2. Kliki roomamisuksusel selle avamiseks - naete koikide roomatud lehtede loendit
  3. Klõpsake mis tahes lehe pealkirjal eraldatud sisu eelvaate kuvamiseks
  4. Kasutage nuppu Tagasi lehtede juurde, et naasta lehtede loendisse

Vihje: Lehtede eelvaatamine on suureparane viis kontrollida, kas roomaja ekstraktis oige sisu. Kui leht tundub vale, saate seda otse muuta voi kustutada ja lisada sisu kaemisitsi.

Üksikute lehtede muutmine

Saate muuta mis tahes roomatud lehe ekstraktitud sisu. See on kasulik vormingunprobleemide parandamiseks, ebaoluliste jaotiste eemaldamiseks voi puuduva teabe lisamiseks.

  1. Avage roomamisüksus ja klõpsake lehe pealkirjal sisu vaatamiseks
  2. Klõpsake eelvaate ülaosas nuppu Muuda
  3. Muutke pealkirja või sisu vastavalt vajadusele
  4. Kliki Salvesta ja taasmanesta - lehe tehisintellekti manestused genereeritakse varskendatud sisuga uuesti

Märkus: Lehe muutmine taasmanestab ainult selle konkreetse lehe, mitte kogu roomamist. Teie teised roomatud lehed jaavad puutumata.

Üksikute lehtede uuesti roomamine

Kui teie veebisaidi lehte on uuendatud, saate roomata ainult seda lehte, ilma kogu veebisaiti uuesti roomamata.

  1. Avage roomamisuiksus oma teadmusbaasist
  2. Kliki eemaldatava lehe korval nuppu kustuta
  3. Kinnitage — leht laetakse uuesti ja selle manused uuendatakse uusima sisuga

Vihje: See on suurepärane üksikute lehtede ajakohastamiseks pärast sisu muutmist, ilma et peaks sadu lehti uuesti roomama.

Uksikute lehtede kustutamine

Saate eemaldada konkreetseid lehti roomamisest ilma kogu roomamist kustutamata. See on kasulik ebaoluliste, duplikaat- voi valesti roomatud lehtede eemaldamiseks.

  1. Avage roomamisuiksus oma teadmusbaasist
  2. Kliki eemaldatava lehe korval nuppu kustuta
  3. Kinnitage kustutamine - leht ja selle manestused eemaldatakse jaavsalt

Märkus: Kui kustutate koik lehed roomamisest, eemaldatakse kogu roomamiskirje automaatselt teie teadmistebaasist.

Veaotsing

Roomamine tagastab oodatust vahem lehti

  • Lehed ei pruugi olla lingitud avastatavatel lehtedelt
  • Moned lehed voivad olla blokeeritud faili robots.txt poolt
  • Cloudflare voi muud turvateenused voivad roomaja blokeerida
  • Lahendus: kasutage käsirežiimi täpsete URL-ide määramiseks

Parooliga kaitstud roomamine ebaonnestub

  • Kontrollige, et teie volikirjad on oiged
  • Kontrollige, kas teie sisselogimine kasutab CAPTCHA-d voi 2FA-d
  • Proovige maarata kohandatud valjanimed taiustatud seadetes
  • Teie sait voib kasutada JavaScripti-pohist autentimist (ei ole toetatud)

Alternatiivid, kui roomamine ei toota:

  • Tehke lehed ajutiselt avalikuks, roomake need ja lubage seejarel kaitse uuesti
  • Salvestage lehed HTML-failidena ja laadige need ules hulgiuleslaadimine kaudu

Sisu tundub puudulik

  • Osa sisu voib olla laaditud JavaScripti kaudu (ei eraldata)
  • Sisu voib olla piltides (ei eraldata tekstina)
  • Lahendus: Lisage puuduv sisu kaesitsi teksti- voi PDF-uleslaadimine kaudu